خوشه بندی موجودیت ها در داده های پیوندی

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه اصفهان - دانشکده برق و کامپیوتر
نویسنده انسیه داوودی جم
استاد راهنما محمد علی نعمت بخش
تعداد صفحات: ۱۵ صفحه ی اول
سال انتشار 1391

چکیده

وب معنایی شامل قرار دادن داده ها روی وب و ساختن ارتباطات به گونه ای است که انسان و ماشین بتوانند محتوای وب داده را کاوش نمایند. هدف وب معنایی افزایش توانایی ماشین ها در دسترسی به منابع موجود در وب، پردازش و بکارگیری آن ها می باشد. با توجه به رشد گسترده ی داده های پیوندی و افزایش مجموعه داده ها در چند سال اخیر، نیاز به ابزاری برای کشف پیوند در مقیاس وسیع احساس می شود. ابزارهای کنونی برای کشف پیوند مجبور به مقایسه ی تمامی موجودیت ها در مجموعه داده ها هستند. با خوشه بندی موجودیت ها، می توان قبل از ایجاد پیوند و بر اساس نوع پیوند تعداد مقایسه ها بین موجودیت ها را کاهش داد. یکی از مهم ترین اتصالات معنادار در وب داده، شناسایی و اتصال موجودیت هایی است که به یک موجودیت یکسان اشاره می کنند ولی دارای شناسه های یکتای منبع متفاوت هستند و در مجموعه داده های مختلفی قرار دارند. در این تحقیق یک مدل به منظور شناسایی وایجاد خوشه هایی با موجودیت های همانند در وب داده ارائه شده است. مدل ارائه شده قابل بکارگیری روی مجموعه داده ها با دامنه های متفاوت است. این روش می تواند به عنوان یک مولفه در ابزارهای کشف پیوند مانند ابزار silk استفاده شده و سبب بهبود پبچیدگی زمانی وافزایش دقت کشف پیوند شود. مدل پیشنهادی دارای دو ماژول اصلی است: 1. ماژول خوشه بندی ابتدایی 2. ماژول شکستن ماژول خوشه بندی ابتدایی دارای سه فاز اصلی پیش پردازش، توابع شباهت و انتخاب مراکز است. مدل پیشنهادی با تعریف توابع شباهت متفاوت، ویژگی ها با انواع مختلف را در نظر می گیرد. در ماژول شکستن؛ بدترین خوشه شناسایی شده و به عنوان کاندید برای شکسته شدن در نظر گرفته می شود. مراحل کشف بدترین خوشه و شکسته شدن تا رسیدن به تعداد خوشه ی بهینه ادامه پیدا می کند. مدل پیشنهادی با استفاده از زبان برنامه نویس جاوا پیاده سازی شد و با استفاده از دو مجموعه داده linkedmdb و dbpedia به منظور خوشه بندی فیلم های همانند و دو مجموعه داده linkedmdb و linkedgeodata به منظور خوشه بندی شهرهای همانند مورد ارزیابی قرار گرفت. پس از مقایسه نتایج بدست آمده با کارهای قبلی مشابه، مشخص شد مدل پیشنهادی دارای پیچیدگی زمان کمتر، بدون از دست دادن پیوندها و دقت بالاست.

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

نحوه خوشه بندی آماری داده های شکل

اخیرا به کارگیری ابزارهای آمار چندمتغیره برای تحلیل داده هایی که به صورت هندسی تصادفی هستند مورد اقبال محققین علوم کاربردی قرار گرفته است. آمارشکل به عنوان شاخه جدیدی از هندسه تصادفی شامل مجموعه ای از چنین داده هایی است. با این حال، چون چنین داده هایی ماهیت غیراقلیدسی دارند نحوه تطبیق ابزارهای مرسوم چندمتغیره برای تحلیل آماری مناسب آنها تا حدودی واضح نیست. در این مقاله نحوه خوشه بندی داده های آ...

متن کامل

بهبود روش تحلیل پوششی داده ها به منظور خوشه بندی مشتریان اعتباری بانک ها

رقابت بین مدیران سازمان های صنعتی و خدماتی برای تامین نیازهای مالی و اعتباری خود از طریق دریافت تسهیلات بانکی به صورت روزانه در حال افزایش است. از طرف دیگر منابع مالی و اعتباری بانک‌ها و موسسات مالی برای ارائه تسهیلات به متقاضیان محدود می‌باشد. بر این اساس تخصیص بهینه منابع محدود مالی با هدف حداکثر نمودن ارزش سرمایه گذاری برای آنها یک ضرورت می-باشد. در این تحقیق پس از شناسایی معیارهای اعتباردهی...

متن کامل

خوشه بندی خودرو سازان بر اساس تابع تولید اقتصادی با استفاده از تحلیل پوششی داده ها

خوشه بندی به کمک تحلیل پوششی داده ها(DEA) شناسایی روابط پنهان بین عوامل ورودی و خورجی واحدهای تصمیم گیری در تعیین تابع تولید آنهاست.در این مقاله به کمک خوشه بندی بر اساسDEA توابع تولید واحدهای تصمیم گیری صنایع خودرو سازی(از جمله سایپا) به صورت تفکیک شده مشخص می شود.تعیین توابع تولید خودروسازان و استفاده از انها در تفکیک صنایع مشابه با قابلیت در نظر گرفتن همزمان چندین عامل ورودی و خروجی از مز...

متن کامل

تشخیص آسیب دیدگی در پل های کابلی با استفاده از آنالیز دامنه فرکانس و خوشه بندی داده ها

پل های کابلی از جمله شریان های حیاتی با اهمیت زیاد هستند که همه ساله هزینه های بالایی صرف تعمیر و نگهداری آنها می شود. پایش سلامت این پل ها می تواند از خسارت های مالی و جانی نامطلوب بکاهد. در این مقاله یک روش پایش سلامت پل های کابلی بر اساس پردازش سیگنال و خوشه بندی داده ها ارائه شده است. از آنجا که دقت روش پردازش سیگنال می تواند به شدت بر دقت شناسایی خسارت تاثیر گذار باشد، در بخش اول مقاله، اب...

متن کامل

تحلیل داده های بیماران دیابتی در راستای خوشه بندی و تجویز دارو براساس الگوریتم پیشنهادی

مقدمه: دیابت یک اختلال سوخت و سازی در بدن است که توانایی تولید هورمون انسولین در بدن از بین می‌رود . هدف کلی از انجام پژوهش حاضر کشف دانش نهفته در دادههای بیماران دیابتی است، که میتواند به پزشکان در خوشهبندی بیماران جدید و تجویز داروی مناسب مطابق هر خوشه کمک نماید. روش کار: در این مقاله از الگوریتم MR-VDBSCAN استفاده شده است. پیادهسازی این الگوریتم د...

متن کامل

رتبه بندی موجودیت در وب داده

امروزه، موتورهای جستجو به یکی از برنامه های کاربردی بسیار مهمِ وب تبدیل شده اند که هدف آن ها کمک به کاربر در جهت یافتن اطلاعات است. موتورهای جستجو همچون گوگل و یاهو کلمات کلیدی کاربر را دریافت می کنند و در صفحات وب بر اساس الگوریتم های از قبل تعریف شده به دنبال کلمات کلیدی وارد شده می گردند. سپس صفحات بازیابی شده را بر اساس الگوریتم رتبه بندی، مرتب و به کاربر نشان می دهند. با ظهور فناوری وب مع...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه اصفهان - دانشکده برق و کامپیوتر

کلمات کلیدی

وب داده کشف پیوند خوشه بندی خوشه بندی فازی خوشه بندی سلسله مراتبی

میزبانی شده توسط پلتفرم ابری doprax.com